查看原文
其他

什么是可信数据?我们为什么需要它?

安胜ANSCEN 2023-01-25

企业基于当下庞大的数据量和数据种类,通常会通过分析和建模来预测数据的增长模式,来指导企业运营和发展方向


而为了得到准确的预测结果,消除数据处理和分析过程可能发生的错误和不准确性,可信数据就显得尤为重要。




什么是可信数据? 

可信数据可以定义为来自特定和信任来源根据其预期用途使用的数据。它以适当的格式和时间框架为特定用户提供,并帮助企业和组织机构做出正确的决策




数据的八大信任因素 

可信数据需要满足哪些标准呢?目前最广泛使用的判定标准之一是使用数据质量维度,它主要包括8大内容:


1
准确性

数据的准确性是指,数据是真实的、可信赖的、无错误的。


在人工智能中,因为上下文中的算法需要大量数据来帮助决策,所以准确性很重要。在任何设置中,准确性都反映了在收集和处理阶段,用户真实期待的数据状态。


2
一致性

数据的一致性是指,数据的呈现方式与以往数据相似且兼容。


一致性也适用于数据的不同方面,包括,所有实例中数据值都是相似的、数据属性、具有基本结构的数据类型、没有矛盾的数据源


3
完整性

数据的完整性是指,给定数据集包含了用户需要的所有相关数据,且所有必需的数据属性都可用。


同样,在人工智能中,只有当数据反映了用户的所有可能状态,才是完整的。


4
安全性

数据的安全性是指,即使来自不同来源,数据依然非常安全,甚至达到可以保存敏感信息的程度。


5
有用性

数据的有用性是指,数据在处理时,应用于其用户或消费者的实际上下文。通常,当满足了其他数据质量维度因素,基本就实现了数据有用性。



6
隐私性

数据隐私规定,企业或组织机构需要严格按照法律规定,合法使用数据。


7
可靠性

数据的可靠性是指,源数据可被信任以承载预期信息。


8
可解释性

数据的可解释性是指,数据处于适当的语言和状态,有意义的,且使用了用户能够轻松理解的符号。




为什么需要可信数据? 

大多数人工智能和机器学习算法都需要以非常特定的方式格式化数据,这意味着数据集通常需要大量的准备才能产生有用的目的;某些数据集包含了不一致、缺失、无效或在某些情况下算法难以处理的值,算法就无法使用,或产生不准确/误导性的结果;许多数据集还缺乏有用的业务上下文,因此需要丰富功能。

良好的数据准备过程会产生干净且准确的数据,干净的数据带来更实用、更准确的模型结果。




结论 

可信数据推动创新,提高竞争优势。可信数据是每个企业的战略资产,所以企业和组织机构要投入时间和精力,学习专业知、技术、和流程范,来确保数据可信、健全、准确和可靠。如果管理得当,可信数据可以改善企业成果,并为创新和转型运营提供基础。





内容来自:

https://www.datasciencecentral.com/what-is-trustable-data-why-do-you-need-it%ef%bf%bc/


编辑:安仔
校对:王磊


相关阅读
01

做好数据安全治理第一步,让你走弯路!

02

什么是数据安全和数据隐私?区别是什么?

0311月15日!首届“企业数据安全高峰论坛”与您相约厦门!
04网络安全面临的最大隐患,能够操纵人心的社会工程攻击是什么?


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存